充分感知环境是机器人运动产生的关键因素。尽管引入深层视觉处理模型有助于扩展这种能力,但现有的方法缺乏积极修改感知内容的能力。人类在视觉认知过程中进行内部性能。本文通过提出一种新的机器人运动生成模型来解决问题,灵感来自人类的认知结构。该模型结合了一个由州驱动的主动自上而下的视觉注意模块,该模块获得了可以根据任务状态积极改变目标的注意事项。我们将这种注意力称为基于角色的注意力,因为获得的注意力集中在整个运动中共有连贯作用的目标。该模型经过了机器人工具使用任务的训练,在该任务中,基于角色的专注分别在对象拾取和对象拖动运动过程中将机器人抓手和工具视为相同的最终效果。这类似于一种称为工具体同化的生物学现象,其中一个人将处理工具视为身体的扩展。结果表明,模型的视觉感知的灵活性有所提高,即使为其提供了未经训练的工具或暴露于实验者的分心,也可以持续稳定的注意力和运动。
translated by 谷歌翻译
这项研究使用来自不同模式的小配对数据实现了描述和动作之间的双向翻译。相互生成描述和动作的能力对于机器人在日常生活中与人类合作至关重要,这通常需要一个大型数据集,该数据集可维护两种模态数据的全面对。但是,配对的数据集构造昂贵,很难收集。为了解决这个问题,本研究提出了一种双向翻译的两阶段培训方法。在提出的方法中,我们训练经常性的自动编码器(RAES),以使用大量非生产数据进行描述和动作。然后,我们对整个模型进行了修订,以使用小配对数据绑定其中间表示。由于用于培训预训练的数据不需要配对,因此可以使用仅行为的数据或大型语言语料库。我们使用由运动捕获动作和描述组成的配对数据集对我们的方法进行了实验评估。结果表明,即使要训练的配对数据量很小,我们的方法也表现良好。每个RAE的中间表示的可视化表明,相似的作用是在簇位置上编码的,并且相应的特征向量很好地排列。
translated by 谷歌翻译
我们提出了一种使用条件生成对抗网络(CGANS)在机器人关节空间和潜在空间之间转换的新方法,以进行无碰撞路径计划,该方法仅捕获以障碍物图来捕获关节空间的无碰撞区域。操纵机器人臂时,很方便地生成多个合理的轨迹进行进一步选择。此外,出于安全原因,有必要生成轨迹,以避免与机器人本身或周围环境发生碰撞。在提出的方法中,可以通过将开始和目标状态与此生成的潜在空间中的任意线段连接起来和目标状态来产生各种轨迹。我们的方法提供了此无碰撞潜在空间,此后,任何使用任何优化条件的计划者都可以使用任何计划器来生成最合适的路径。我们通过模拟和实际的UR5E 6-DOF机器人臂成功验证了这种方法。我们确认可以根据优化条件的选择生成不同的轨迹。
translated by 谷歌翻译
我们实现了接触的灵活物体操作,这很难单独使用视力控制。在解压缩任务中,我们选择作为验证任务,夹具抓住拉动器,它隐藏袋子状态,例如其背后的变形的方向和量,使得仅通过视觉获取信息来执行任务。此外,柔性织物袋状态在操作期间不断变化,因此机器人需要动态地响应变化。然而,所有袋子状态的适当机器人行为难以提前准备。为了解决这个问题,我们开发了一种模型,可以通过具有触觉的视觉的实时预测来执行接触的灵活性对象操纵。我们介绍了一种基于点的注意机制,用于提取图像特征,Softmax转换来提取预测运动,以及用于提取触觉特征的卷积神经网络。使用真正的机器人手臂的实验结果表明,我们的方法可以实现响应袋子变形的运动,同时减少拉链上的负荷。此外,与单独的视觉相比,使用触觉从56.7%提高到93.3%,展示了我们方法的有效性和高性能。
translated by 谷歌翻译
大脑减轻了对自我产生的遗产的反应(例如,我们不能自我痒痒)。这种现象是这种现象,称为感官衰减,天生,还是通过学习获得的?为了探讨后一种可能性,我们创建了由感官(Proprioceptive和Extleceptive),协会和行政区域组成的神经网络模型。由网络控制的模拟机器人学会了以获得具有自我产生或外部产生的脱敏反馈的电动机图案。我们发现,机器人首先在学习早期阶段的自我产生和外部产生的条件下的感觉和关联区域中的响应增加,但随后,它逐渐衰减在仅用于自我产生的条件的感觉区域中的反应。机器人自发地获得了通过切换执行区域的神经状态的条件来切​​换(衰减或放大)响应的容量。这表明通过学习自动组织网络内部感官信息流的主动控制。我们还发现,调制感官信息流程的天然改变诱导类似于精神分裂症和自闭症谱系疾病的一些特征。本研究提供了一种关于神经机制潜在的感知现象和精神病疾病的新颖性观点。
translated by 谷歌翻译
Deformable registration of two-dimensional/three-dimensional (2D/3D) images of abdominal organs is a complicated task because the abdominal organs deform significantly and their contours are not detected in two-dimensional X-ray images. We propose a supervised deep learning framework that achieves 2D/3D deformable image registration between 3D volumes and single-viewpoint 2D projected images. The proposed method learns the translation from the target 2D projection images and the initial 3D volume to 3D displacement fields. In experiments, we registered 3D-computed tomography (CT) volumes to digitally reconstructed radiographs generated from abdominal 4D-CT volumes. For validation, we used 4D-CT volumes of 35 cases and confirmed that the 3D-CT volumes reflecting the nonlinear and local respiratory organ displacement were reconstructed. The proposed method demonstrate the compatible performance to the conventional methods with a dice similarity coefficient of 91.6 \% for the liver region and 85.9 \% for the stomach region, while estimating a significantly more accurate CT values.
translated by 谷歌翻译
Transparency of Machine Learning models used for decision support in various industries becomes essential for ensuring their ethical use. To that end, feature attribution methods such as SHAP (SHapley Additive exPlanations) are widely used to explain the predictions of black-box machine learning models to customers and developers. However, a parallel trend has been to train machine learning models in collaboration with other data holders without accessing their data. Such models, trained over horizontally or vertically partitioned data, present a challenge for explainable AI because the explaining party may have a biased view of background data or a partial view of the feature space. As a result, explanations obtained from different participants of distributed machine learning might not be consistent with one another, undermining trust in the product. This paper presents an Explainable Data Collaboration Framework based on a model-agnostic additive feature attribution algorithm (KernelSHAP) and Data Collaboration method of privacy-preserving distributed machine learning. In particular, we present three algorithms for different scenarios of explainability in Data Collaboration and verify their consistency with experiments on open-access datasets. Our results demonstrated a significant (by at least a factor of 1.75) decrease in feature attribution discrepancies among the users of distributed machine learning.
translated by 谷歌翻译
The ability to record high-fidelity videos at high acquisition rates is central to the study of fast moving phenomena. The difficulty of imaging fast moving scenes lies in a trade-off between motion blur and underexposure noise: On the one hand, recordings with long exposure times suffer from motion blur effects caused by movements in the recorded scene. On the other hand, the amount of light reaching camera photosensors decreases with exposure times so that short-exposure recordings suffer from underexposure noise. In this paper, we propose to address this trade-off by treating the problem of high-speed imaging as an underexposed image denoising problem. We combine recent advances on underexposed image denoising using deep learning and adapt these methods to the specificity of the high-speed imaging problem. Leveraging large external datasets with a sensor-specific noise model, our method is able to speedup the acquisition rate of a High-Speed Camera over one order of magnitude while maintaining similar image quality.
translated by 谷歌翻译
我们将知识驱动的程序合成(KDP)作为程序综合任务的变体进行了介绍,该任务需要代理来解决一系列程序合成问题。在KDP中,代理应使用早期问题中的知识来解决后期问题。我们提出了一种基于PushGP的新方法来解决KDPS问题,该问题将子程序作为知识。所提出的方法通过偶数分区(EP)方法从先前解决的问题的解中提取子程序,并使用这些子程序使用自适应替换突变(ARM)来解决即将到来的编程任务。我们称此方法PushGP+EP+ARM。使用PushGP+EP+ARM,在知识提取和利用过程中不需要人类的努力。我们将提出的方法与PushGP进行比较,以及使用人手动提取的子程序的方法。与PushGP相比,我们的PushGP+EP+ARM可以实现更好的火车错误,成功计数和更快的收敛速度。此外,当连续解决六个程序合成问题的序列时,我们证明了PushGP+EP+组的优势。
translated by 谷歌翻译
多源数据融合,共同分析了多个数据源以获得改进的信息,引起了广泛的研究关注。对于多个医疗机构的数据集,数据机密性和跨机构沟通至关重要。在这种情况下,数据协作(DC)分析通过共享维数减少的中间表示,而无需迭代跨机构通信可能是合适的。在分析包括个人信息在内的数据时,共享数据的可识别性至关重要。在这项研究中,研究了DC分析的可识别性。结果表明,共享的中间表示很容易识别为原始数据以进行监督学习。然后,这项研究提出了一个非可读性可识别的直流分析,仅共享多个医疗数据集(包括个人信息)的非可读数据。所提出的方法基于随机样本排列,可解释的直流分析的概念以及无法重建的功能的使用来解决可识别性问题。在医学数据集的数值实验中,提出的方法表现出非可读性可识别性,同时保持了常规DC分析的高识别性能。对于医院的数据集,提出的方法在仅使用本地数据集的本地分析的识别性能方面表现出了9个百分点的改善。
translated by 谷歌翻译